Unicode To UTF

Unicode To UTF8 及编码过程实时解析建议反馈快速尝试:转化过程解析UnicodeBinaryUTF81前缀码1Unicode二进制组1Unicode二进制组(便于区分)Unicode To UTF8 编码与解码UTF-8 小解

UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码，也是一种前缀码。见 UTF-8。

它可以用一至四个字节对 Unicode 字符集中的所有有效编码点进行编码，属于Unicode标准的一部分，由于较小值的编码点一般使用频率较高，直接使用Unicode编码效率低下，大量浪费内存空间。

UTF-8就是为了解决向后兼容ASCII码而设计，Unicode中前128个字符，使用与ASCII码相同的二进制值的单个字节进行编码，而且字面与ASCII码的字面一一对应，这使得原来处理ASCII字符的软件无须或只须做少部分修改，即可继续使用。

UTF8 Code Point Prefix

| Number of bytes | Bits for code point | First code point | Last code point | Byte 1| Byte 2| Byte 3| Byte 4||-----------------|---------------------|------------------|-----------------|----------|----------|----------|----------|| 1| 7| U+0000| U+007F | 0xxxxxxx | | | || 2| 11 | U+0080| U+07FF | 110xxxxx | 10xxxxxx | | || 3| 16 | U+0800| U+FFFF | 1110xxxx | 10xxxxxx | 10xxxxxx | || 4| 21 | U+10000 | U+10FFFF| 11110xxx | 10xxxxxx | 10xxxxxx | 10xxxxxx |

其中:

128个 ASCII 字符只需一个字节编码（Unicode范围由U+0000至U+007F）。带有附加符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及它拿字母则需要两个字节编码（Unicode范围由U+0080至U+07FF）。基本平面（BMP）中的字符（这包含了大部分常用字，如大部分的汉字）使用三个字节编码（Unicode范围由U+0800至U+FFFF）。辅助平面的字符使用四字节编码，比如 emoji 表情（Unicode范围由U+0800至U+FFFF）。转化过程将数据转化为 unicode 的 codePoint，在 JS 中可借助于 str.codePointAt(0)将转化后的 codePoint 根据前缀表确定其所占用的字节数，如 codePoint 为 U+0801，范围在 U+0800 与 U+FFFF 之间，占用三个字节根据字节数，确定其前缀，并将 codePoint 转化为二进制从右填充将每八个二进制计算得出其 UTF-8 编码

如，山

根据 '山'.codePointAt().toString(16) 得出其十六进制为 0x9053根据 0x9053，可知其占用三个字节，确定前缀 1110xxxx10xxxxxx10xxxxxx 并根据自身大小进行填充，得到 11101001 10000001 10010011根据填充所得的码，转化为三个 UTF-8，得到 E9 81 93APIJS

在 Javascript 中，可借助于 TextEcoder API 进行转化

export function stringToUint8 (s: string): Uint8Array { const enc = new TextEncoder() return enc.encode(s)}export function uint8ToString (uint8: Uint8Array): string { const enc = new TextDecoder() return enc.decode(uint8)}Python> '山月'.encode()b'\xe5\xb1\xb1\xe6\x9c\x88'> b'\xe5\xb1\xb1\xe6\x9c\x88'.decode()山月

云奕文章网

Unicode To UTF

相关推荐：